首页> 外文OA文献 >Attention-Based End-to-End Speech Recognition on Voice Search
【2h】

Attention-Based End-to-End Speech Recognition on Voice Search

机译:基于注意的语音搜索端到端语音识别

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Recently, there has been an increasing interest in end-to-end speechrecognition that directly transcribes speech to text without any predefinedalignments. In this paper, we explore the use of attention-basedencoder-decoder model for Mandarin speech recognition on voice search. Wepropose a smoothing method for attention mechanism and compare with contentattention and convolutional attention. Moreover, frame skipping is employed forfast training and convergence. On the XiaoMi TV voice search dataset, weachieve a character error rate (CER) of 3.58% and a sentence error rate (SER)of 7.43% without using any lexicon or language model. While together with atrigram language model, we reach 2.81% CER and 5.77% SER.
机译:最近,人们对端到端语音识别越来越感兴趣,这种语音识别无需任何预定义的对齐即可将语音直接转录为文本。在本文中,我们探索了基于注意力的编解码器模型在语音搜索中对普通话语音识别的使用。提出了一种注意力机制的平滑方法,并与内容注意力和卷积注意力进行了比较。而且,跳帧被用于快速训练和收敛。在小米电视语音搜索数据集上,无需使用任何词典或语言模型,即可实现3.58%的字符错误率(CER)和7.43%的句子错误率(SER)。与atrigram语言模型一起使用时,我们达到了2.81%的CER和5.77%的SER。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号